- Partiendo de \(T_0\), para cada nodo interno (subárbol candidato \(T_t\)), calcular \(\alpha_t\): \[
\alpha_t = \frac{R(t) - R(T_t)}{|T_t| - 1}.
\]
- \(R(T_t)\) es el error del subárbol completo con raíz en \(t\), \(R(t)\) es el error si convertimos ese subárbol en una sola hoja y \(|T_t|-1\) el número de hojas que eliminamos.
- \(\alpha_t\) representa el coste que incurrimos (en término de error adicional \(R(t) - R(T_t)\)>0) al reducir el número de hojas (podar) en \(|T_t|-1\).
- Tras explorar todos lo posibles subárboles de \(T_0\) tenemos una lista de valores \(\alpha\). Seleccionamos el mínimo \(\alpha_t\) al que denominamos \(\alpha_1\)
- \(\alpha_1\) se puede interpretar como el subárbol que aporta menos a la reducción del error de predicción (por hoja).
- A continuación eliminamos (podamos) todos los subárboles de \(T_0\) con \(\alpha_t=\alpha_1\) (lo reemplazas por una hoja). Esto devuelve un árbol más pequeño \(T_1\): si no se trata del árbol trivial volvemos al inicio de la iteración.
Este proceso devuelve una secuencia creciente de valores \[
0 = \alpha_0 < \alpha_1 < \alpha_2 < \cdots < \alpha_K
\] y una secuencia anidada de árboles: \[
T_0 \supset T_1 \supset T_2 \supset \cdots \supset T_K,
\]
Con cada \(\alpha_k\) es el punto a partir del cual el subárbol \(T_{k-1}\) deja de ser óptimo.